统计计量 | 趣读:相关性未必意味着因果关系
本文转载自公众号Stata连享会
🍎 连享会主页:lianxh.cn
原文链接:https://www.lianxh.cn/news/6582dfc81e2c7.html
作者:倪克金 (东南大学)
邮箱:nikejin624@outlook.com编者按:本文主要摘译自以下文章,特此致谢!
Source:Correlation does not imply causation -Link-
目录
1. 引言
2. 因果分析
3. 因果关系误用的例子
3.1 反向因果
3.2 共因关系
3.3 双向因果
3.4 巧合关系
4. 结论
5. 相关推文
1. 引言
因果关系的存在,必然会伴随着相关性。但是,从因到果还需时间上的先后顺序、以及合理的机制等。因此,相关性只是因果关系的必要不充分条件。在现代科学中,相关关系经常会被误认为因果关系。例如:
早期的流行病学研究表明,女性在接受联合激素替代疗法 (HRT) 后,其冠状动脉疾病发生率会显著低于平均水平。据此,医生认为 HRT 是预防冠心病的一种有效措施。但在之后的随机对照试验中,却发现使用激素替代疗法会导致冠心病的风险小幅增加,并在统计学上显著。
进一步深入分析表明,接受 HRT 的妇女更有可能来自社会经济地位较高的群体 (ABC1),这意味着她们的饮食和运动方案优于平均水平。由此,我们可以看出,社会经济地位同时影响着 HRT 疗法和冠状动脉疾病发生率,而并非简单的因果关系。
即便如此,大量的观察性病例数据依旧显示出 HRT 可以降低女性的冠状动脉疾病。不过,随着科学的发展,医学界也给出了更为准确严谨的解释,即健康妇女在绝经后不久开始接受雌激素治疗对降低冠心病风险有显著效果。
2. 因果分析
因果分析是实验设计和统计研究等领域试图建立事件因果关系常用的方法。对于任何两个相关的事件 A 和 B,它们可能的关系包括:
分类 | 关系 |
---|---|
A 导致 B | 直接原因 |
B 导致 A | 反向因果关系 |
A 和 B 都是由 C 导致的 | 共因关系 |
A 导致 B 并且 B 导致 A | 双向或循环因果关系 |
A 和 B 之间没有关联 | 巧合 |
由上表可知,仅从 A 与 B 相关来看,我们是无法得出 A 与 B 间的因果关系。为此,我们需要进一步的分析来验证因果关系。
假设一个学生在考试中表现不佳,我们猜测可能的原因是他昨晚熬夜打游戏了。为了证明这一点,我们会想到一个反事实的例子,即同一个学生在同样的情况下参加同样的测试,但却在前一天晚上按时睡觉。如果时空可以穿越,通过改变这个学生考试前夜状态,我们就可以观察到因果关系。但事实是我们并不能改变历史,故因果关系只能被推断出来,并不能被确切地知道。上述现象也是因果推理的基本问题——直接观察因果效应是不可行的。
科学实验和统计推断的一个主要目标就是尽可能接近真实世界的反事实状态。例如,研究者可以对同卵双胞胎进行一项实验,以检验考前辅导是否有用。首先,要保持双胞胎的其他外在因素相同;其次,将一个送去学习 6 小时,另一个送去游乐场玩 6 小时;最后,比较双胞胎的测试成绩。若有显著差别,则可以认为考前辅导会对成绩产生显著影响。当然,很多时候平衡个体间的相似性是困难的。一个可行的办法是,以群体相似性取代个体相似性。
当实验无法进行时,我们可以通过回归分析来控制可能的混淆变量。再或者,我们还可以通过为内生变量寻找工具变量来克服反向因果问题。尽管如此,因果关系推论仍是不可靠的。
3. 因果关系误用的例子
3.1 反向因果
反向因果,即原因和结果是相反的,原因被错误的认为是结果。
例子 1:风与风车
观察到风车旋转越快风就越大这一现象。简单认为,风是由风车的旋转引起的; 事实恰恰相反,风不需要风车也能存在,而风车需要风来转动。在没有风车或风车不转动的地方也可以观察到风,我们有理由相信风在风车发明之前就已经存在。
例子 2:看电视与暴力倾向
观察到小孩子过度看电视会变得更暴力现象。简单认为,电视让小孩子变得更暴力; 然而,这也很容易反过来说,有暴力倾向的孩子比没有暴力倾向的孩子更喜欢看电视。
例子 3 :毒品与精神疾病
观察到吸毒导致精神疾病发生的现象。简单认为,吸毒导致了精神疾病; 另一种可能是人们使用毒品来自我治疗已经存在的精神疾病。
例子 4:中世纪的虱子与健康
中世纪的欧洲人相信虱子对健康有益,因为病人身上很少会有虱子。于是,当时的人普遍认为生病是因为虱子离开造成的; 然而,真正的原因是虱子对体温极其敏感,体温的小幅度升高,比如发烧,就会使虱子寻找另一个宿主。当时体温计还没有被发明出来,所以温度的上升很少被注意到。于是人们就认为虱子离开会导致人生病。
3.2 共因关系
共因是对 A 和 B 都产生影响的因素,但在分析 A 和 B 的关系时,我们一般会简单认为是 A 导致了 B,或 B 导致了 A。
例子 1:穿鞋睡觉与头痛
观察到穿鞋睡觉与醒来时头痛相关的现象。简单认为,穿鞋睡觉会引起头痛; 一个更合理的解释是,两者都是由第三个因素造成的。例如,醉汉喝醉后,直接穿着鞋上床睡觉,早晨醒来因为醉酒而头痛,从而引起了穿鞋睡觉和头痛间相关性。
例子 2:开灯睡觉与儿童近视
观察到开灯睡觉的孩子在后来的成长过程中更容易近视的现象。简单认为,开灯睡觉会导致近视; 这是宾夕法尼亚大学附属医院的一项研究得出的判断。这项研究发表在 1999 年 5 月 13 日出版的《自然》杂志上,当时受到大众媒体的广泛报道。然而,俄亥俄州立大学后来追踪研究并没有发现婴儿开着灯睡觉会导致近视的现象。意外地,该研究却发现了父母近视和儿童近视之间的紧密联系,同时指出近视的父母更有可能在他们孩子的卧室里开着灯,以方便夜间照顾孩子。因此,开灯睡觉和孩子近视背后共同的原因是父母近视。
例子 3:冰激凌销量与溺水死亡率
观察到随着冰淇淋销量增加,溺水死亡率急剧上升的现象。简单认为,吃冰淇淋会导致溺水; 吃冰淇淋和游泳背后共同因素是季节。在炎热的夏季,冰淇淋的销售速度远高于寒冷的月份,而且在炎热的夏季,人们更有可能进行游泳活动。
例子 4:肥胖与温室气体
自 1950 年代以来,大气中的二氧化碳水平和肥胖水平都急剧上升。简单认为,大气中的二氧化碳会导致肥胖; 事实是,经济增长使人们有条件吃更多的食物,进而导致肥胖,同时经济增长也产生了更多的二氧化碳。
3.3 双向因果
因果关系不一定是单向的。例如在捕食者与被捕食者的关系中,捕食者的数量影响被捕食者的数量,但是被捕食者的数量,即食物的供给,也影响捕食者的数量;
另一个众所周知的例子是,骑自行车的人比不骑自行车的人体重指数更低。这通常可以解释为骑车行为增加了身体活动水平,因此降低了体重指数。但是,一项关于骑自行车人群的前瞻性研究结果显示,骑自行车对人体重指数的影响较小。那么我们可以认为,体重指数较低的人,更有可能骑自行车。
3.4 巧合关系
现实世界中可能存在两个变量完全没有关系,仅仅是因为人们对两个事件的讨论比较越多,就主观臆造出两者之间存在某种关系,即自我说服、自我洗脑。
米歇尔定律:将德国社会民主党在民众投票中的份额与德国西部粗钢产量的大小联系起来;
俄罗斯领导人交替秃头规律:在近 200 年的历史中,俄罗斯每一个秃头的国家领导人之后,都会接替一个不秃头的领导人,反之亦然。
4. 结论
在社会研究中,人们总是不经意地将相关关系误认为因果关系。当然,人们也会犯另一种错误,即完全忽视相关性。实际上,在医学、心理学和社会学等领域中,相关性是一种有价值的科学证据。但是,相关性本身不能用来证明治疗与疗效、风险因素与疾病、或社会经济因素与各种结果之间的因果关系。
点击搜索你感兴趣的内容吧
往期推荐
数据Seminar
这里是大数据、分析技术与学术研究的三叉路口
欢迎扫描👇二维码添加关注